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文章 编号 :1005-3085(2010)03-0389-07 
求解 高 分 子 结构 预测 问题 的 新 直接 搜索 方法 * 


卢 昕 玮 12， 张 可 村 ? 

(1- 长 安 大 学 经 济 与 管理 学 院 ， 西 安 710064; 2- 西安 交通 大 学 理学 院 ， 西 安 710049) 

摘 要 : 高 分 子 结构 预测 问题 是 目前 国际 上 最 热门 的 研究 课题 之 一 ， 它 具有 重要 的 理论 意义 和 实用 价值 。 
本 文 探 讨 了 其 中 的 一 类 热门 模型 : 势能 函数 模型 。 根 据 目前 研究 的 现状 和 存在 的 不 足 ， 首 次 提出 
了 求解 该 问题 的 直接 搜索 算法 。 首 先 ， 本 文 根 据 模型 的 特点 改进 了 筛选 子 ， 然 后 优化 了 相应 的 算 
法 。 其 次 ， 本 文 进行 的 数值 试验 证 了 该 方法 的 可 行 性 和 有 效 性 。 与 其 他 方法 相 比 ， 新 算法 针对 大 
规模 问题 的 求解 具有 明显 的 优势 。 
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高 分 子 结构 预测 问题 是 目前 国际 上 最 热门 的 研究 课题 之 一 ， 它 具有 重要 的 理论 意义 和 实用 
价值 ， 在 新 物质 的 发 现 与 研究 ， 新 药品 的 研制 和 生产 ， 生 物 信息 科学 的 探索 等 领域 都 扮演 着 十 
分 关键 的 角色 。 因 此 ， 近 几 十 年 来 ， 各 国学 者 在 此 领域 开展 了 广泛 而 深入 的 探索 ， 也 取得 了 令 
人 鼎 目 的 成 果 。 目 前 ， 热 门 的 数学 模型 主要 包括 下 列 几 个 : ARERR, BLAS, or 
间作 用 力 向 等。 而 势能 函数 模型 是 其 中 最 受 关注 的 一 个 。 

针对 高 分 子 结构 预测 问题 的 研究 方法 主要 可 归纳 为 以 下 三 大 类 : ABR. FBIM 
头 预 测 方法 。 与 前 两 类 方法 相 比 ， 从 头 预测 方法 具有 相当 明显 的 特点 和 优势 ， 它 不 需要 序列 以 
外 的 其 他 更 多 信息 ， 仅 从 一 个 高 分 子 序 列 就 可 以 得 到 相应 的 空间 结构 ， 这 是 非常 理想 的 理论 方 
法 ， 不 仅 简洁 ， 还 可 以 发 现 新 的 物质 结构 ， 这 是 其 他 方法 所 无 法 匹敌 的 。 

在 众多 学 者 的 多 年 努力 下 ， 以 上 三 大 类 方法 都 取得 了 不 少 成 果 ， 其 中 有 很 多 值得 一 提 的 好 
方法 ， 如 : Monte Carlo WES), MAGA. BRL, ee HO RR) 等 。 遗 
憾 的 是 ， 现 有 的 求解 方法 虽然 取得 了 相当 的 成 就 但 仍然 无 法 满足 工程 实际 中 的 需求 。 例 如 ， 在 
求解 规模 、 计 算 效 率 、 求 解 精度 等 方面 仍然 差强人意 。 因 此 ， 探 索 高 效 的 新 求解 方法 就 变 得 必 
要 且 紧 迫 。 

有 鉴于 此 ， 本 文 提出 了 一 个 属于 从 头 预测 算法 类 的 新 直接 搜索 方法 。 直 接 搜 索 算法 8,19 是 
一 大 类 不 依赖 一 、 二 阶 导数 的 方法 ， 最 早出 现 于 20 世 纪 50 年 代 ， 但 是 它 的 发 展 却 非常 缓慢 。 
随 着 基于 导数 算法 的 兴盛 ， 直 接 搜 索 算法 被 忽视 ， 没 有 得 到 足够 的 重视 和 重大 的 发 展 。 然 而 ， 
随 着 越 来 越 多 的 从 工业 、 生 物 、 经 济 及 化 学 等 各 个 领域 中 抽象 出 的 大 量 优化 问题 都 不 能 用 基于 
导数 信息 的 方法 来 求解 ， 直 接 搜索 算法 以 它 独 特 的 优势 又 重新 受到 了 学 者 的 重视 ， 在 近年 来 成 
为 了 一 个 学 者 研究 的 热点 方向 ， 受 到 了 广泛 的 关注 和 重视 。 直 接 搜索 算法 包括 的 种 类 很 多 ， 
主要 有 模式 搜索 、 线 性 搜索 、 共 力 方 向 、 二 次 逼近 等 。 其 中 模式 搜索 Q- 芍 是 最 热门 的 一 种 方 
法 。 也 是 本 文 探讨 和 改进 的 基础 。 
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全 文安 排 如 下 : 第 二 部 分 中 首先 给 出 本 文 要 解决 的 问题 的 模型 。 第 三 部 分 讨论 算法 ， 本 文 
根据 模型 的 特点 ， 首 先 改进 了 筛选 子 ， 其 次 给 出 了 改进 算法 。 在 第 四 部 分 中 本 文 开展 了 一 些 数 
值 试验 、 相 应 的 数据 分 析 和 算法 比较 ， 得 出 了 新 方法 更 有 效 等 结论 。 最 后 一 部 分 是 结论 和 待 讨 
论 的 问题 。 


2 势能 函数 模型 


首先 ， 本 文 给 出 将 要 讨论 的 数学 模型 ， 典 型 的 势能 函数 是 根据 经 典 的 力学 模型 结合 一 定 的 
光谱 试验 数据 等 发 展 出 来 的 。 无 论 是 简单 或 复杂 的 模型 通常 包括 以 下 四 项 上 5: 键 伸缩 能 、 键 
角 变 形 能 、 键 的 转动 能 ( 即 二 面 角 能 ) 和 非 键 相互 作用 。 用 特定 的 符号 转化 为 数学 语言 后 可 以 写 
成 

E = E; + E2 + Ez + EA 
»» Ag, —liof + >》 (2 一 bo2+ V5 c2,(1 + cos(Bwiz —49)) + > 
bonds angles torsions inj u 
其 中 已 代表 势能 函数 ，rij 是 不 同 原子 之 间 的 距离 。 第 一 项 为 键 伸缩 能 ， 即 键 长 ; 偏离 平衡 位 
Blo MMR, 第 二 项 为 键 角 变形 能 ， 即 键 角 60; 偏离 平衡 位 置 9,0 时 的 能 量 增 量 ， 第 三 
项 为 二 面 角 项 ， 代 表 沿 着 一 个 给 定 的 键 旋转 时 引起 的 二 面 角 畸变 的 能 量 ， 它 在 本 质 上 是 周期 
的 ，cij 为 一 个 常数 ，wi 是 一 个 参考 角 ， 第 四 项 是 非 键 相互 作用 力 ， 一 般 都 使 用 势能 项 。 

遗憾 的 是 ， 尽 管 上 述 数学 模型 已 经 作 了 简化 和 提炼 ， 但 是 仍然 难以 求解 。 因 此 ， 在 确保 
原 模型 仍然 能 反映 实际 情况 的 前 提 下 ， 有 必要 进一步 优化 上 述 模型 。 事 实 上 ， 在 以 上 四 个 
分 量 中 ， 代 表 键 的 转动 能 Es ( 即 二 面 角 能 ) 和 非 键 相 互 作用 Es 在 模型 的 构建 中 发 挥 着 更 重 
要 的 作用 ， 即 和 Eos 项 可 以 忽略 。 由 此 可 做 出 假设 ,lL; = lo, 0; = 0i0, i = 1 ,Nn 
即 E, ME, CAMP PEE, ME = 0，E2 = 0。 这 样 方程 就 写成 为 


一 1 
E = Ez + E, = Z el (1-- eos(&oj — 8) ) + 2 E, 


torsions i,j Tij 
其 中 扭转 角 的 余弦 为 
cos y — cos a cos B 
COS w = —— 
sinasin 8 
X 2 2 
of i T — 7 
cos y ij jl al 
2riTA 
所 以 有 
10.60099896 一 r2 
cos = 


4141720682 
又 由 三 倍 角 定理 cos 3y = Acos (cos? — 3). np 


xu 10.60099896 — r3 \2 — . / 1060099896 — r2 
By = >> [1 +4( 4141720682 1) -3( 4141720682 jl. 


i=1 j=l 


为 方便 起 见 ， 将 上 式 写 成 


_< 10.60099896 — x? \2 10.60099896 — z? (一 二 
E) = 5 [1+4( 4.141720682 ) i ( 4.141720682 ) | 


i=1 
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EPE: R” OR, eC2?2。 同 时 ， 上 式 中 的 自 变 量 取 值 范 围 也 不 是 任意 的 ， 因 为 在 工程 实际 
中 ， 通 常会 应 用 一 些 物理 手段 和 测量 设备 预先 测定 出 分 子 间距 离 的 大 致 范围 ， 例 如 应 用 核磁 共 
振 方式 就 是 目前 国际 上 普遍 采用 的 一 种 方法 。 所 以 ， 我 们 有 必要 加 入 相应 的 约束 条 件 ， 以 使 该 
模型 更 加 完备 ， 切 合 实际 要 求 。 由 此 就 形成 了 如 下 的 约束 优化 问题 


| 10.60099896 — z? \2  .,10.60099896 — 22 | (—1) 
min (2) Er [1+4( 4.141720682 ) -3( 4.141720682 j* ài |: 


st. TEX= {7x = vinxi € R” | low; < zi < up; i=1,--- ,n}, 


其 中 lowi，upi 分 别 为 z; 的 上 、 下 界 ， 一 般 取 值 范围 是 lowi = —1, up; = 1, i=1,---,n- 


3 ”基于 筛选 技术 的 模式 搜索 算法 
考虑 如 下 的 优化 问题 


min f(z), 
HPO CR”, f(z): 一 RU{+oo} 为 连续 可 导 函 数 ， 但 是 其 导数 信息 不 可 得 或 不 可 靠 。 
模式 搜索 算法 由 Box!!3] 与 Hooke-Jeeves!4 在 20 世纪 50 年 代 末 最 早 提出 来 的 ， 其 主要 思想 
是 不 借助 任何 导数 信息 就 能 产生 一 个 迭代 序列 z(*)。 在 每 次 迭代 时 ， 若 迭代 点 能 产生 更 好 的 最 
优 值 则 接受 ， 否 则 就 继续 寻找 。 从 几何 意义 上 来 说 ， 就 是 寻找 具有 较 小 函数 值 的 “山谷 ”， 力 
图 使 送 代 产生 的 序列 沿 “ 山 谷 ” 向 最 小 值 点 逼近 。 
首先 ， 引 入 一 些 有 用 的 符号 : 
A: “网眼 V: R^ 上 的 基 人 :六 上 产生 的 有 序 正 基 
v: Vy PRIR Vi: 全 中 元 素 的 个 数 F: MAT 
k: 第 大 次 迭代 
在 近年 的 研究 中 ， 正 基 被 大 量 的 引入 到 模式 搜索 算法 的 研究 中 ngj。 此 处 ， 先 给 出 简略 的 介 
绍 。 正 基 具 有 以 下 的 两 个 主要 特征 。 
1) BR" 中 的 任意 向 量 都 可 以 表示 成 全 中 元 素 的 一 个 非 负 组 合 ; 
2) Vi 中 的 任意 子 集 都 不 是 正 基 。 
QUIESE V 的 定义 如 下 
vik) = L ER” :i=1,2,---,n}, 


每 个 基 V( 必须 满足 以 下 条 件 
|det[((9,909,... «1| 3 z, < K, Viel,...,n, 
其 中 7 与 K 是 独立 于 的 正常 数 。 此 外 ， 正 基 的 数量 也 满足 以 下 关系 式 
n+1<|V|<2n, 


2 个 最 常用 的 正 基 是 
k 
y? = (49,4, (P, — Sool \, 


vi = (v9... 的 
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在 本 文中 ， 我 们 采用 正 基 61,62, 77: ,en, 一 en+l Ent 7 ,一 ezn，ei 是 单位 基 向 量 。 算 法 在 和 迭 
代 的 过 程 中 ， 需 要 不 断 改 变 网 眼 的 大 小 和 搜索 步 长 进行 计算 。 但 是 这 样 以 来 ， 计 算 负担 就 会 大 
大 增加 。 对 于 小 规模 规划 问题 不 大 ， 但 是 对 于 中 规模 和 大 规模 规划 问题 ， 这 个 缺点 就 变 得 十 分 
棘手 ， 甚 至 会 导致 求解 失败 。 因 此 ， 本 文 考虑 引入 筛选 技术 718] 来 解决 这 个 问题 。 由 于 筛选 
子 的 选择 是 筛选 技术 中 最 关键 ， 故 本 文 着 重 于 筛选 子 的 进一步 优化 和 改进 。 

在 模式 搜索 算法 中 ， 目 标 函 数 至 少 都 是 局 部 最 优 值 ， 即 它 比 周围 的 函数 值 都 要 小 


f(z) < f(s + àvi), Vue Ve, t=1,2,---,|V4], 
由 此 可 以 定义 如 下 的 筛选 函数 


0, 如 果 w(x) <0, 
h(x) = | (æ) < 
w(r) 如 果 w(x) > 0， 


其 中 
w(x) = f(x) - amin {f(x - àv), i e A} - (1—a)f*. 


人 是 正 基 的 一 个 子 集 ， 其 中 的 基 与 搜索 方向 的 夹 角 均 小 于 9%0"; f* 是 当前 迭代 中 的 全 局 最 优 
fH: a € (0,1) 是 一 个 接近 1 的 常数 。 
进一步 ， 定 义 如 下 筛选 子 : 车 对 于 任意 的 z; e FU, Awe 


h(x) < (1— Oh(z;) 或 f(x) < f(z;) — óh(z), (1) 


则 称 该 点 能 被 筛选 子 接受 ， 当 有 新 的 点 被 筛选 子 接受 时 ， 要 删除 它 所 控制 的 所 有 点 h9]。 其 
CO, 6 € (0,1) 是 接近 0 的 参数 。 

本 文 改进 的 筛选 子 具有 如 下 的 优势 : 

1) 既 提 高 了 搜索 能 力 又 确保 了 较 快 的 搜索 速度 。 一 方面 ， 搜 索 的 范围 有 效 扩 大 了 ， 只 要 
能 使 f(z) 或 者 h(z) 下 降 的 点 都 可 以 作为 新 的 迭代 点 ， 另 一 方面 ， 本 文 也 舍弃 了 那些 不 太 可 能 
出 现 最 小 点 的 搜索 方向 。 

2) 提高 了 方法 求解 大 规模 问题 的 能 力 。 

下 面 先 引入 一 个 更 新 准则 ， 若 一 个 点 能 被 筛选 子 接受 ， 则 将 其 加 入 到 筛选 子 内 ， 更 新 筛选 
子 ， 并 删除 被 该 点 控制 的 所 有 点 。 算 法 步骤 : 

步骤 1 初始 化 k —1,0,0,0. ^a e OX WIR. FO 为 初始 筛选 子 且 满足 z(0) e 
FO, WHEE V, = (vi, vo, ,v2n} AKAM, 

步骤 2 选择 步 长 和 MA*)， 置 i 二 1, p-20, 4(0-|Vj| 

步骤 3 计算 点 ze) + Abu EN, i eA， 上 的 f(z) 和 h(x) 函数 值 ; 

步骤 4 若 点 能 被 筛选 子 Fo 接受 ， 则 令 其 为 z(*+D)， 同 时 根据 更 新 准则 更 新 筛选 子 Pet), 
PREKA, 二 上 十 1,p = 0， 转 步骤 6， 否 则 ， 转 步骤 5; 

SRS 执行 有 限 步 搜索 过 程 ， 若 Q 内 存在 可 被 筛选 子 接受 的 点 ， 则 令 其 为 zt*+D，p = 
0， 同 时 根据 更 新 准则 更 新 筛选 子 ， 否 则 ，p = p 十 1; 

步骤 6 $i-ic-l, Sit, Wii, Ep«ctU, Wis, TUPE T, 

步骤 7 执行 有 限 步 搜索 过 程 ， 若 在 2 内 存在 点 可 被 筛选 子 接受 ， 则 令 其 为 zlk+D， 大 = 
十 1 同时 根据 更 新 准则 更 新 筛选 子 并 扩大 步 长 入 中， 否则 缩小 入; 

PRS 车 停机 条 件 不 满足 ， 则 转 步 骤 2， 否 则 输出 最 优 值 ， 停 机 。 
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VERA: 

1) 步 长 和 的 选择 是 任意 的 。 但 需要 注意 的 是 ， 如 果 入 太 小 ， 则 很 难 取得 明显 的 下 降 ， 如 
果 入 太 大 ， 则 会 降低 算法 的 效率 。 最 通常 的 选择 是 搜索 成 功 时 入 扩大 为 原来 的 2 倍 ， 失 败 时 缩 
小 为 原来 的 去 。 但 是 针对 不 同 规模 的 问题 入 的 选择 不 尽 相 同 。 

2) 步骤 5 和 步骤 7 中 的 有 限 步 搜索 过 程 也 是 任意 的 。 最 简单 的 一 种 方式 就 是 在 可 行 域内 选 
择 随 机 点 。 当 然 ， 其 它 更 合理 的 方法 也 可 以 使 用 。 

3) ”算法 的 停机 标准 也 是 较 灵活 的 。 通 常 的 停机 标准 是 和 *) < s， 即 当 步 长 小 于 某 一 预定 值 
时 ， 算 法 停机 。 

收敛 性 证 明 类 似 于 文献 17]， 此 处 略 去 。 


4 数值 实验 


在 本 节 中 ， 我 们 通过 数值 实验 来 测试 新 方法 的 可 行 性 与 有 效 性 。 设 a = 09, C = 
0.1, 6 = 0.1, € = 1.00e — 05。 作 者 使 用 VC++6.0 编 程 ， 电 脑 配 置 为 mntel(R) Pentium(R) 
M1.73G，(768M 内 存 )。 主 要 的 结果 在 表 1 中 列 出 ， 并 同时 列 出 传统 的 分 支 定 界 方法 出 的 计算 
结果 ， 该 方法 是 求解 此 模型 的 一 类 热门 算法 。 表 中 PF optimum 和 PF CPU time (s) 是 新 方法 
求 得 的 最 优 值 和 CPU 时 间 。 而 BB optimum 和 BB CPU time (s) 则 是 分 支 定 界 方法 的 最 优 值 
和 CPU 时 间 。 

通过 对 表 1 的 分 析 ， 不 难看 出 新 方法 可 以 顺利 的 求解 出 所 有 问题 的 最 优 解 ， 并 且 具 有 明显 
的 优势 ， 具 体 表 现在 以 下 3 个 方面 : 

1) 针对 大 规模 问题 的 求解 具有 不 可 比拟 的 优势 

新 方法 的 最 大 求解 能 力 达 到 了 2000 维 ， 而 分 支 定 界 方法 仅 为 28 维 。 如 果 选 择 适当 的 参数 
值 和 ， 算 法 的 求解 能 力 能 够 更 高 。 

2) 更 高 的 求解 效率 

当 n < 50 时 ， 新 方法 所 有 的 CPU 计算 时 间 均 小 于 1.0 秒 。 当 n = 2000， 其 CPU 计算 时 间 
也 仅 有 5008.96 秒 ， 约 1.39 小 时 。 而 分 支 定 界 的 计算 时 间 则 大 大 长 于 新 算法 。 计 算 仅 28 维 的 问 
题 就 花 了 约 82.528 小 时 。 此 对 比 充分 说 明了 新 法 具有 更 高 的 求解 效率 。 

3) 更 高 的 计算 精度 

新 方法 的 计算 精度 均 大 于 10-1， 且 最 高 可 以 达到 10-4。 但 原 有 的 分 支 定 界 方法 的 最 高 精度 
仅 为 10-1。 

综 上 所 述 ， 新 方法 不 仅 是 可 行 的 ， 而 且 是 高 效 的 。 新 方法 具有 较 高 的 求解 精度 和 效率 ， 同 
时 在 求解 大 规模 问题 时 具有 不 可 比拟 的 优势 。 


5 ”结论 与 展望 


本 文 探 讨 了 一 种 求解 高 分 子 结构 预测 问题 的 新 方法 。 由 于 现 有 的 很 多 方法 在 求解 效率 、 求 
解 规模 以 及 求解 精度 等 方面 上 不 尽 如 人 意 ， 所 以 亟待 探索 新 思路 和 方法 。 本 文 根 据 以 上 存在 的 
问题 首次 提出 了 求解 该 问题 的 基于 筛选 技术 模式 搜索 方法 。 首 先 本 文 根 据 模型 的 特点 改进 了 第 
选 子 ， 其 次 改进 了 相应 的 算法 。 随 后 进行 的 数值 试验 证 明了 本 方法 的 可 行 性 和 有 效 性 。 与 其 他 
方法 相 比 ， 新 算法 在 各 个 方面 都 有 优势 ， 特 别 是 针对 大 规模 问题 的 求解 具有 不 可 比拟 的 优势 。 
在 以 后 的 研究 中 作者 将 进一步 研究 该 方法 在 其 他 更 复杂 的 模型 中 的 应 用 。 
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表 1: 数值 实验 结果 及 比较 
BB optimum BB CPU time (s) PF optimum PF CPU time (s) 
10 -5.894e-001 2.47 -2.81862e-003 | 0.01 
11 -3.289e-001 4.32 3.39224e-001 0.02 
12 -6.716e-001 6.70 -3.45459e-003 0.02 
13 -4.112e-001 12.24 3.79987e-001 0.04 
14 -7.539e-001 22.47 -4.03022e-003 0.03 
15 -4.934e-001 34.56 3.38073e-001 0.04 
16 -8.361e-001 20.53 -4.6059e-003 0.05 
17 -5.757e-001 97.20 3.37497e-001 0.05 
18 -9.183e-001 218.4 -5.18131e-001 0.06 
19 -6.579e-001 448.2 2.71163e-001 0.111 
20 -1.0006 1167 9.15127e-001 0.111 
21 -7.401e-001 3075 3.8514e-001 0.12 
22 -1.0828 6365 -6.333e-003 0.09 
23 -8.224e-001 10126 2.61704e-001 0.10 
24 -1.1650 19480 -6.90836e-003 0.10 
25 -9.046e-001 34657 3.35194e-001 0.12 
26 -1.2473 62730 -7.48477e-003 0.13 
27 -9.868e-001 123232 2.7311e-001 0.27 
28 -1.3295 297100 -8.90219e-002 0.211 
30 / / -5.41749e-004 0.23 
50 / / -5.18526e-002 0.631 
100 / / 1.66808e-001 2.544 
200 / / 2.28535e-001 8.182 
500 / / 2.70119e-002 75.178 
1000 / / 8.8819e-001 206.467 
1500 / / -4.3154e-001 1119.71 
2000 / ls / -3.51427e-001 | 5008.96 
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A New Direct Search Method for Solving Macromolecular Structure 
Prediction Optimization Problems 


LU Xin-wei!?, ZHANG Ke-cun? 


(1- School of Economy and Management, Chang’an University, Xi'an 710064; 
2- College of Science, Xi'an Jiaotong University, Xi'an 710049) 


Abstract: The macromolecular structure prediction problem is one of worldwide popular research 
topics with significant theoretical and industrial importance in recent years. In this paper, a modified 
direct search method based on the filter technique for solving macromolecular structure prediction 
problems is proposed. First, we modify the filter according to the characteristic of the macromolecu- 
lar structure model and improve the corresponding approach. Then numerical experiments show the 
effectiveness of the proposed method. Especially, the proposed approach on solving higher dimensional 
problems is exceptional. 
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